人类可以从语言描述中获取新颖的视觉概念知识,因此我们使用少量图像分类任务来研究机器学习模型是否可以具有此功能。我们提出的模型Lide(从图像和描述中学习)具有文本解码器来生成描述和文本编码器,以获取机器或用户生成的描述的文本表示。我们证实,带有机器生成的描述的LIDE优于基线模型。此外,通过高质量的用户生成的描述进一步提高了性能。生成的描述可以看作是模型预测的解释,我们观察到这种解释与预测结果一致。我们还研究了为什么语言描述通过比较图像表示形式和特征空间中的文本表示来改善了几张图像分类性能。
translated by 谷歌翻译